今天介紹這篇也是經典的reid論文,
AANet: Attribute Attention Network for Person Re-Identifications
有些研究表明,結合語義訊息(如:身體部位,人體姿態等)可以顯著提高Reid的準確率。
但是目前SOTA的Reid方法中並沒有用到人體屬性資訊,如:衣服顏色、頭髮長短、性別等,
而這些attribute在短時間內不會發生顯著變化,因此可以作為一些線索提高Reid性能。
因此本篇文章,提出了Attribute Attention Network (AANet) 框架,將person attribute融合到分類框架中。
該模型包含3個子網絡。
第一個網絡稱為Global Feature Networks(GFN),一般作法,用來擷取全身特徵進行分類。
第二個網絡稱為Part Feature Network (PFN),類似PCB,關注於身體局部區域檢測,分塊抽取特徵。
第三個網絡稱為Attribute Feature Network(AFN),從行人身體上抽取多層次的屬性信息構成Attribute Attention Map (AAM)。
這三個網絡使用行人ID和屬性標籤進行分類,計算Loss,因為這是一個Multi-Task Learning,
必須保證所有任務同等重要,而不能讓簡單任務主導整個訓練過程。
主要重點在AFN,AFN包含兩個子任務:
(1)人體屬性分類
(2)attribute attention map (AAM)的生成
首先第一個任務會分別預測12個屬性的分類。
然後第二個任務用第一個任務的output,經過CAM,得到每個屬性attention map,最後組合成 AAM,如圖所示
把特徵圖分成上、中、下三個部分,分別從每一個部分提取特徵。
局部提取特徵的好處是可以降低背景的影響同時提升分類準確率。
不同的部分關注不同的屬性,
例如,top特徵圖用於捕捉諸如帽子、頭髮、袖子和上部衣服顏色等特徵,中下部分的身體部分的特徵將被忽略。
算是本文亮點,
如圖所示,global、上中下特徵圖都經過GAP在V層生成4特徵向量。這四個向量輸入到FC中分類。
每一類都有自己的屬性預測。
接著通過CAM,得到的每個屬性的attention map,
這些圖對應的前面說的,上中下或是全部的特徵區塊,然後在合成一張AAM。
最後AAM也是經過GAP然後進行ID分類,
所以整個架構會有四個Loss,3個ID分類Loss,1個屬性分類Loss
和其他方法比較達到SOTA,
在Duke上提升3%多
若本文對您有幫助,歡迎按讚追蹤:)